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Использование лексемньях полей 
в интеллектуальном анализе текстовьїх массивов 


У роботі запропонована модель семантичних та тематичних лексемних полів для інтелектуального аналізу 
текстових документів. Розглянуто векторну модель текстових документів у семантичному просторі, базис 
якого утворено частотно-дистрибутивними характеристиками семантичних та тематичних полів. 
Експериментальний аналіз тестової вибірки показав високу ефективність використання лексемних полів у 
класифікаційному аналізі авторства текстів. 

Ключові слова: інтелектуальний аналіз даних, семантичні та тематичні поля, 

векторна модель текстових документів, класифікація текстів. 
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В работе предложена модель семантических и тематических лексемньх полей для интеллектуального 
анализа текстовьтх документов. Рассмотрена векторная модель текстовьтх документов в семантическом 
пространстве, базис которого образован частотно-дистрибутивньми характеристиками семантических и 
тематических полей. Зкспериментальньшй анализ тестовой вьтборки показал вьтокую зффективность 
использования лексемньїх полей в классификационном анализе авторства текстов. 

Ключевьг слова: интеллектуальний анализ данньх, семантические и тематические поля, 
векторная модель текстових документов, классификация текстов. 


Вступ 


Інтелектуальний аналіз текстових масивів є одним із перспективних напрямків 
сучасних інформаційних технологій. Складовими такого аналізу є алгоритми кла- 
сифікації та кластеризації текстових документів. У цих алгоритмах використовують 
векторну модель текстових документів, яка базується на представленні документів 
як векторів у деякому фазовому просторі. Базис такого простору часто утворюють за 
допомогою частотно-дистрибутивних характеристик лексем текстового словника. Одна 
із основних проблем такого підходу зумовлена великою розмірністю аналізованого век- 
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торного простору. Також такий простір не дає можливості виділити задані семантичні 
складові в інтелектуальному аналізі текстів. У задачах аналізу текстового змісту ак- 
туальними є теорії лексичної семантики, зокрема, вчення про семантичні поля. Се- 
мантичні поля розглядають як групи лексем, об'єднаних спільним поняттям. Такі групи 
лексем утворюють нові характеристики текстових даних, використання яких може 
бути ефективним у задачах кластеризації та класифікації текстових документів. Семан- 
тичні поля глибоко вивчені у лінгвістичних працях, однак існує необхідність розробки 
формалізованих математичних моделей для їхнього впровадження в алгоритми інтелек- 
туального аналізу текстових масивів. 


Аналіз останніх досліджень та публікацій 


У роботах |1|, (2) описана векторна модель текстових документів. У |2-4| розгля- 
нуто методи класифікаційного аналізу текстових документів. У роботах |5-8| наведені 
результати аналізу текстових масивів на основі концепції семантичних полів. Семантичні 
поля розглянуті як групи лексем, об'єднаних спільним поняттям. У |5|, |6| запропоно- 
вана модель кластеризації текстових документів у семантичному просторі, яка дає можли- 
вість отримувати новий структурний поділ документів за семантичними ознаками у 
просторі суттєво меншої розмірності, ніж у просторі, утвореному частотними характе- 
ристиками лексемного складу текстової вибірки. У роботі |8| показано, що сингулярний 
розклад матриці семантичних ознак типу «частоти семантичних полів - документи» дає 
можливість аналізувати текстові документи у новому просторі семантичних концеп- 
тів. Розглянемо лексикографічні концепції лексемних полів, які використовують у 
лінгвістиці. Семантичні групування слів відображають системність лексики. В основі 
визначення семантичних полів лежить лексико-семантична парадигма, під якою роз- 
уміють множину лексем, які об'єднані сукупністю семантичних ознак. Відмінність лексем 
у межах однієї парадигми визначається уточнюючими диференціюючими ознаками. 
Парадигми можуть бути одно- та багаторанговими. Ранги парадигми визначають струк- 
туру ієрархії лексемного об'єднання. Ядро семантичного поля утворюють лексеми, 
домінуюче значення яких визначають основними ознаками семантичного поля. Периферію 
семантичного поля утворюють лексеми, які містять основні поняття семантичного поля 
опосередковано, через ряд диференційних ознак, що мають відношення до основного 
поняття, яке утворює семантичне поле |9|. Одні і ті ж множини лексем називають як 
лексико-семантичні групи, семантичні поля, синонімічні ряди (10). Уточнюючі та дифе- 
ренціюючі семантичні зв'язки в рамках одного семантичного поля визначають ієрар- 
хічну структуру поля |11|. Один із засновників вчення про семантичні поля - німецький 
вчений Трір, розділяв ієрархічну структуру лексем на словесні та понятійні поля. Він 
також вважав, що семантичні поля є неперервними, тобто лексеми семантичного поля 
охоплюють його понятійну область без пробілів так само, як склад словника охоплює 
весь спектр понять мови |12|. У лінгвістиці вводять поняття семантичного простору, 
який інтегрує та об'єднує семантичні поля |13)|. На вершині семантичної організації 
знаходиться поняття семантичного простору, далі - поняття семантичного поля, 
лексико-семантичної групи, а на нижньому рівні знаходиться поняття слова. У роботі 
141) введено поняття семантичних станів мовних одиниць, які розглянуті як формальні 
репрезентативні стани. У роботі |15| проаналізовані семантичні сітки, семантична 
структура та ієрархія лексичних одиниць. У роботі |16| запропонована концепція 
семантичних доменів, яка доповнює теорію семантичних полів. Визначення семан- 
тичних доменів є найбільш близьким до методів комп'ютерного аналізу текстів при- 
родної мови 1 базується на відповідних текстових колекціях, які належать до аналізо- 
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ваного домена і характеризують семантичні поняття, які виокремлюють аналізований 
домен. Лексемний склад семантичних полів визначають різними способами (17|. Один 
із способів полягає у виділенні загального поняття, на основі якого формують 
лексико-семантичне поле. Інший спосіб полягає у виділенні слова чи групи слів, до 
яких підбирають синонімічні ряди. Також виділяють семантичні поля на основі екс- 
пертного аналізу спільних появ лексем у заданих контекстах. Прикладом комп'ютер- 
ної лексикографічної системи, в якій відображена семантична мережа зв'язків між 
лексемами, є система МогаМеї |18|, яка розроблена у Прінстонському університеті. 
Ця система побудована на основі експертного лексикографічного аналізу семантич- 
них структурних зв'язків, які відображають денотативні та конотативні характеристики 
лексемного складу словника. Глибина зв'язків у такій системі визначається експерт- 
ною оцінкою лексемних комбінацій у текстових масивах і обмежується науковим до- 
свідом експертів та об'ємом проаналізованого матеріалу. Семантичні поля у мережі 
МУогаМеє представлені лексикографічними файлами. Іменники, дієслова, прикметники 
та прислівники організовані у синсети - множини синонімів. Іменники та дієслова 
згруповані відповідно до семантичних полів. У літературі розглядають такі лексемні 
класи, як семантичні поля, понятійні поля, тематичні групи лексем, семантичні групи, 
синонімічні ряди, семантичні домени та інші. 

Підсумовуючи літературні дані досліджень семантичної класифікації лексемного 
складу словника можна побачити, що більшість визначень семантичної класифікації 
класів лексем є спорідненими, близькими до класичного визначення семантичного поля, 
і базуються на моделі «мішка слів». Відмінності між цими визначеннями зумовлені 
різним рівнем диференціації семантичних понять, на основі яких утворюють лексемні 
об'єднання. У цій моделі розглядають сукупність слів текстових документів без розгля- 
ду їх контекстуальної послідовності. На основі проаналізованого матеріалу можна 
зробити висновок про необхідність розробки комплексної структурної багаторівне- 
вої класифікаційної моделі лексемного складу текстових масивів, яка б об'єднувала 
на основі спільного теоретичного базису такі дистрибутивні лексемні відображення 
характеристик текстових масивів, як семантика документа, тематика масиву докумен- 
тів, семантична характеристика інформаційного джерела документів, характеристика 
авторів текстового масиву. Визначення об'єднуючого поняття семантичного поля 
потребує модельної та алгоритмічної формалізації. В залежності від обраної моделі 
та алгоритму об'єднання лексем можна отримати різні лексемні угрупування. На ос- 
нові квантитативних характеристик кожного із таких угрупувань можна утворити 
додатковий вимір у семантичному просторі представлення текстових документів. 
Введення цих додаткових вимірів може бути ефективним у задачах інтелектуального 
аналізу текстів, зокрема у класифікаційних задачах та задачах кластерного аналізу. 
Велика розмірність векторного простору є значною проблемою класифікаційних 
алгоритмів. Тому актульними є методи зменшення розмірності базису. Структуру- 
вання словника, зокрема у вигляді семантичної мережі, може дати суттєве зменшення 
розмірності базису внаслідок використання квантитативних ознак лексемних полів. 


Постановка задачі 


Побудуємо теоретико-множинну модель лексемних полів, яка буде описувати 
як лексико-семантичні, так і тематичні поля у лексемній структурі словників. Розгля- 
немо модель текстових документів у просторі лексемних полів. Проведемо класифі- 
каційний аналіз тестової вибірки текстових документів у просторі семантичних та 
тематичних полів. Як класифікатор оберемо наївний баєсівський класифікатор. 
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Теоретико-множинна модель лексемних полів 


Розглянемо модель семантичних класів лексем, які утворені як на основі експерт- 
ного лексикографічного групування лексем, так і на основі тематичних характеристик 
категоризованих текстових документів. Спочатку розглянемо модель класичного лексем- 
ного поля, яку в подальшому узагальнимо на випадок тематичного поля масиву категори- 
зованих документів. Розглянемо утворення поняття «семантичне поле» в процесі аналізу 
текстових даних. Нехай існує деякий словник лексем, які зустрічаються в аналізованих 
текстових масивах. Опишемо цей словник як впорядковану множину 


МИ з му, |і 21,2. М, а) 
де М,, - кількість лексем у словнику. Введемо множину семантичних полів 
ко З НУ о 93 УА є 02) 
де М, - кількість семантичних полів. Семантичні ознаки лексем будемо 
характеризувати відображенням 
(Пр Й -з9, М; З» бу, 2 - 1,2...,М,5к 21,2... М,. (3) 


Тобто у відповідність кожній лексемі ставлять деякий елемент множини 5. 
Множина значень 5 може мати різну природу, наприклад, це може бути множина 
назв деяких семантичних класів. Шкала семантичних ознак є номінальною, якщо 
лексеми набувають деяких назв із множини 5. Номінальна шкала володіє класифіка- 
ційним потенціалом, коли за допомогою відображення (3) можна утворити групування 
елементів множини /(/, які мають спільні назви із множини 5. У загальному, класи- 
фікацію лексем за семантичними полями будемо розглядати як відображення множини 
лексем на множину семантичних полів. Семантичну класифікацію розглянемо як 
деяку сукупність відображень лексем на множину дійсних чисел. Можливу кванти- 
фікацію лексемних відображень можна пов'язати із частотами лексем у текстових 
об'єктах. Розглянемо утворення семантичного поля на основі відношення еквівалент- 
ності. Нехай існує деяке бінарне відношення 


50 стхХИИ. (9 


Розглянемо деяку квантитативну ознаку лексеми х, (м/,), яка кількісно характеризує 


лексемні відношення заданого типу у множині аналізованих текстових об'єктів. 
Наприклад, це може бути частота появи лексеми ум/, в заданому лексемному шаблоні. 


Пов'яжемо із ознакою х; (у, ) бінарне відношення 
ь 5 ; 
5; 5 (умію а хім) 5) 


: Ь 
Можна показати, що відношення КУ Є рефлексивним, тобто 


(у у )є 5у, Му, є М, (6) 
симетричним, тобто 
(м, мг.) є 5; 23 (т, му) Є 5, Ум, м, є М, (7) 
і транзитивним, тобто 
(у зм.) є 550 му) Є 5 (ит) Є б, МУ з У/ уз У, Є М. (8) 
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Рефлексивне, симетричне і транзитивне відношення називають еквівалентністю (19). 
. . Ь . з ; . 
Еквівалентність 5, повністю характеризує, породжуючи його ознаку, х; (и/,), і дає 

можливість визначити множину лексем, які не розрізняють за цією ознакою: 


50 «м, | (муз) є 5? | (9) 


Якщо 5, є деяким семантичним відношенням, тоді неспівпадаючі множини 5, 
утворюють розбиття лексемного словника Й/ на семантичні класи 


5 2155 ре 12..М,). (10) 


Такі семантичні класи, враховуючи теорію лексико-семантичних полів, можна 
. . й Ь 
розглядати як лексемні поля. Бінарне віДдНОШенННняЯ КУ може також породжуватись 


деяким логічним висловлюванням Ом), у, ) 


554 (муз У|Обию, мг, ) с гие |, (11) 


де О(и),уг,) описує деяку умову, наприклад, одночасне використання в тексто- 


вих шаблонах заданої структури. Умова породження бінарного відношення 5, може 


також описуватись деяким правилом підстановки в заданій схемі формальної грама- 
тики. Таке правило може бути сформовано деяким регулярним виразом. Розглянемо 


рангову ознаку х; (у, ), яка утворює бінарне відношення 


57 | (муз Їхі От) хі (12) 


Можна показати, що таке бінарне відношення є рефлексивне, транзитивне та лінійне. 
Такі відношення називають лінійними квазіпорядками |19|. Квазіпорядок 5/. 


породжує рангову шкалу семантичного поля Р У випадку формування семан- 


тичного поля за допомогою рангових ознак можна визначити внутрішню структуру 
поля, для якої можна сформувати внутрішній частковий порядок, виділивши струк- 
турні групи всередині семантичного поля. Такими групами можуть бути, наприклад, 
частотне ядро семантичного поля, основна частотна область, периферійна частотна 
область. Для кожної із цих груп можна визначити умови для семантичної ознаки, за 
якою лексеми всередині цих груп не розрізняють. Відношення еквівалентності та 
квазіпорядку визначають номінальні та рангові семантичні шкали для лексемного 
складу словника текстових масивів на основі лексемних відношень елементів різних 
класів семантичного розбиття. 

Введемо поняття тематичного поля за аналогією із семантичним полем. Вважаємо, 
що тематичне поле утворюють лексеми словника текстових масивів, які характери- 
зують тематику деякої категорії текстових документів. Такі категорії можна визначати, 
наприклад, на основі дистрибутивних характеристик текстів, згрупованих за деякою 
визначеною тематикою, авторством текстів, джерелом походження тощо. Множину 
тематичних полів позначимо так 


Трет з (тет, |1,2,..Мит а3) 


де У 


кістю тематичних категорій. Введемо деякий коефіцієнт, який буде відображати, у 
скільки разів деяку лексему вживають частіше у деякій категорії у порівнянні із 


ш|Тиет| - розмір множини тематичних полів, який визначений кіль- 


тет 
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загальною вибіркою усіх категорій. Визначимо цей коефіцієнт як відношення частоти 
лексеми у документах заданої категорії до частоти цієї ж лексеми у загальній 
текстові вибірці 
мє 
Кійетіє - Рі (14) 
ії ТР . 


У 


Рі 


Назвемо Кипет;" коефіцієнтом тематичної виразності. Визначимо тематичне поле 


їйет, деякої категорії текстових документів сіє, , як підмножину словника лексем, 
для яких коефіцієнт тематичної виразності є більший за деяке, наперед визначене, 
значення: 

урист щур, | Кипету (ую, ) з Кійет,), (15) 


де Кийет, - деяке порогове значення коефіцієнта тематичної виразності. 


На основі визначення множини тематичного поля можна сформувати лексемний 
склад для кожного тематичного поля, заданого певною категорією текстових докумен- 
тів. Введення простору семантичних та тематичних полів не тільки зменшує розмірність 
задачі аналізу текстів, а також вводить новий базис для текстових характеристик. 

У семантичному базисі можуть спостерігатися якісно нові групування тексто- 
вих документів. 

Розгляд таких групувань може бути ефективним в алгоритмах комплексного 
аналізу текстів. 


Векторна модель текстових документів 


Розглянемо формування базису лексемних семантичних та тематичних полів 
для векторного простору текстових документів. 
Сукупність текстових документів опишемо такою множиною 


реїаціує012.М,Ї, (16) 


де М, - кількість документів. Під документом з ) - 0, будемо вважати 


документ з нейтральним текстом, який відповідає лінгвостатистичній нормі. Документ 
а; з множини текстових документів ) можна представити як упорядковану мно- 


жину слів Ї, , порядок елементів якої відповідає порядку слів у цьому документі: 


те -11,|1-12..М3). а7) 


/ 
Упорядкований за алфавітом словник текстового документа а; розглянемо як 


мультимножину у над множиною словника Й/ 


4 о пи (у) | м, є, і 212, (18) 


/ 


де пу кількість входжень лексеми му із словника ИЙ в множину лексем 


текстового документа а, яку можна визначити як 


м! 
ми - і | 
й М ) Ла уз М) Ла Чу» Мі) З 0 а | Ме 
І-1 
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Відображення лексемного складу словника Й/ на множину семантичних полів 5 (3) 
задамо таблицею, яка визначена експертним лексикографічним аналізом. Лексемний 
склад семантичного поля 5; визначимо як 


РАХ. 
б з му, | м, З 8узі 2 1,2... М, . (20) 


Множину образів відображення /, (3) розглянемо як мультимножину над 
множиною семантичних полів 5 


Є, 
5, 2 п/з Ю о 12. М, 01) 
де пі - Кількість лексем словника |, які відносяться до семантичного поля 5, : 


М 2 

5 з ім, є Й, 
пра У, Д.О95у) де (туз) о б, 22) 

ізі 0, МУ; є Й; 


Введемо мультимножину образів відображення Ї/,, семантичних полів для окремого 


документа а) 
54 - п (з, | 2 12. М, 023) 


У 


де п пі - кількість лексем семантичного поля 5, в лексемному складі документа а; 


1,1, є Й; 


м; 
про У іі де А . (24) 
ю 2, ПоГЕ у»"к огу є Р 


Введемо оператор відображення лексемного словника Й/ на множину квантитативних 
ознак у масиві документів 


Са ТР ло і з 1,2... 2 1,2...Мц- (25) 


м 


її може мати довільне походження кванти- 


У загальному випадку величина р 


тативної характеристики. 
У подальшому будемо розглядати цю величину як текстову частоту 
лексеми у, у текстовому документі а, яка визначена такою функціональною 


залежністю 


п'Я 


та 17 
ру я. (26) 
/ М 


Аналогічно введемо оператор відображення семантичного складу 5 текстового 


документа а; на множину квантитативних ознак: 
арок 12 ОТ) 


Величина й визначає структурну частоту лексем семантичного поля 5; у текстовому 


. 77 
документі а). Визначимо р; за такою формулою 


РР 1, м, є Й; 
ро ре Од ДО М (28) 
і«і 0, У; є ИЙ, 
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Сукупність значень р утворює матрицю типу ознака-документ 


Й ма Уа 
о БРА МА 29) 
У матриці М, роль ознаки відіграє текстова частота лексеми. Введемо вектор 
у ма ма ма 
и рРбонай ВІ 30) 


Такий вектор відображає документ а) в М,-мірному просторі текстових документів. 
Сукупність значень Рі утворюють іншу матрицю ознака-документ, у якій ознаками 


виступають частоти семантичних полів у документах: 


КУ 5 Ма 
ма (31) 
Вектор 
у» «(рі ріорі,) (32) 


відображає документ а) в М,-мірному просторі текстових документів. 

Текстові документи можуть бути представлені за допомогою тематичних век- 
торів Й ей , які визначають за аналогією до семантичних векторів. 

Розглянемо поняття тематичного поля як сукупності лексем, які в загальному 
випадку можуть належати різним частинам мови і повинні однозначно відображати 
понятійний спектр деякої категорії текстових документів. 

Аналогічно до частот семантичних полів визначимо частоти тематичних полів 


кожного документа як суми частот лексем, які належать цьому полю: 


Ре М, ч 1, у є ДАН 

тет ми і 

Ру - а Рі Лает (У; 2 тет, , Лак (м, (ет, ) зе тет 2 (33) 
ічі 0, МУ; є ИЙ 


(тету 
де ру 


множина лексем тематичного поля ійет,, визначена формулою (15). Розглянемо 


- частота тематичного поля гйет, у текстовому документі а; , Й," - 


матрицю М сту ТИПУ Тематичні поля-дОкКументи за аналогією до матриці семантич- 


них полів М. 


ц Й тету ЛУ мет» Ма 
(тету 


де ру - частоти тематичних полів, М,,, - Кількість тематичних полів, М, - 


тет 
кількість текстових документів. Частоти тематичних полів утворюють координати 
текстових повідомлень у векторному семантичному просторі. Вектор 


тет || (тету (тету (тетуа 
У - (ри Ро; ре (35) 


відображає документ а; в М,-мірному просторі, базис якого утворений тематичними 
полями. Використання векторного представлення дає можливість пошуку подібних до- 
кументів та псевдодокументів у векторному просторі із базисом, утвореним частотними 
характеристиками семантичних та тематичних полів. Цей базис має суттєво меншу 
розмірність у порівнянні із базисом, утвореним частотними характеристиками лексем 
словника текстових масивів. Це дає можливість зменшити кількість необхідних об- 
числень в алгоритмах аналізу текстів. 


«Штучний інтелект» 2013 Мо 1 105 


з п Павлишенко Б.М. 


Експериментальні дослідження 


Для експериментального вивчення класифікації текстових документів у про- 
сторі семантичних полів ми вибрали текстову базу 503 художніх творів 17 авторів. 
Для формування семантичного простору вибрано лексеми, згруповані за семантич- 
ними полями іменників та дієслів семантичної мережі М/огаМег |18|. Семантичні 
поля у мережі УМогаМеї (Бієр.//уогапеї.ргіпсеїоп.еди) представлені лексикографічними 
файлами. У наших дослідженнях ми використали семантичні поля іменників та дієслів. 
Семантичні поля іменників складаються із 26 лексикографічних файлів, із яких ми 
вибрали 54 464 лексеми. Семантичні поля дієслів містять 15 лексикографічних фай- 
лів, у які ми відібрали 9097 лексем. Також розглянуто 17 тематичних полів за тема- 
тичними категоріями текстових документів, згрупованих за авторами. Коефіцієнт тема- 
тичності, за яким відібрані лексеми для тематичних полів, був більшим за мінімальне 
значення, що дорівнює 2. Тобто тематичні поля для категорії текстів деякого автора 
сформовані на основі лексем, які зустрічаються у цих текстах у два і більше разів 
частіше, ніж у сукупній вибірці текстів усіх авторів. Навчальна вибірка містила 350 
документів, а тестова - 153. Для класифікації текстових документів вибрано наївний 
баєсівський класифікатор. Класифікація текстових документів у просторі семантичних 
полів за допомогою баєсівського класифікатора описана в |8|. Для характеристики 
класифікаторів використовують поняття точності (ргесізіоп) та повноти (гесаї!) |З, 141. 


Точність класифікатора Рг, для категорії Сі2, визначають як відношення кількості 
елементів, які правильно класифіковані як належні до категорії Сіє, до загальної 
кількості елементів, які класифіковані як належні до категорії СІя, 
Й | а, |СІаз (4, ) - Сіє, ла, є Сів, ї 


Рг, 7 | 4, | СІ/азх(д,) я Ся, ї 


(36) 


де Сіа55(а,) - визначена класифікатором категорія. Повноту (теса!!) класифікатора 
Кс ; вИЗНачають ЯК відношення успішно класифікованих документів у заданій категорії 
до загальної кількості документів у цій категорії. 
М | 4, |СТаз (4) - Сіє, ла, є Сів, | 


Сула 


і |РЯРЖЕАГЯН 


37) 


Розглянемо основні отримані результати. Для класифікатора у просторі семан- 


тичних полів отримано такі значення точності та повноти класифікації: русів «07066, 


расавя - 06952. При тестовій класифікації документів за авторами у просторі тематичних 


полів отримано такі значення точності та повноти класифікації: Раз - 0,914, 


теап 


Вс -0.898. Графік розподілу точності та повноти баєсівського класифікатора у 


теап 
просторі тематичних полів наведено на рис. 1. 
Як випливає із отриманих результатів, представлення текстів у просторі семан- 
тичних та тематичних полів дає високі результати точності класифікаційного аналізу 
авторства текстів для розглянутої текстової вибірки художніх творів. 
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08 кн 


Точність, повнота 


Рисунок 1 - Розподіл точності та повноти для баєсівського 
класифікатора у просторі тематичних полів 


Висновки 


У роботі розглянуті лінгвістичні концепції семантичних та тематичних лексико- 
графічних полів із точки зору їх використання в алгоритмах інтелектуального аналізу 
текстових масивів. Під семантичними полями розглядають множини лексем, які об'єднані 
деякою парадигмою. Під парадигмою можна розуміти, наприклад, спектр семантичних 
або тематичних понять, які відображені у структурі лексикографічних значень лексем. 
На основі концепцій семантичних полів створена теоретико-множинна модель, яка 
об'єднує поняття семантичного та тематичного лексемного поля. Лексикографічні се- 
мантичні та тематичні поля можна розглядати як підкласи об'єднуючого класу лексемних 
полів. Лексемні поля розглянуті як розбиття лексемного словника на основі відношення 
еквівалентності. Лексикографічні поля утворені на основі експертного семантичного гру- 
пування лексемного складу словника. Тематичні поля утворені на основі лексем, які ха- 
рактерні для тематично категоризованих текстових документів 1 визначаються на основі 
коефіцієнта тематичної виразності. Цей коефіцієнт показує, у скільки разів лексеми 
тематичного поля зустрічаються частіше у текстах заданої тематичної категорії у 
порівнянні із текстами лінгвостилістичної норми. Розглянуто векторну модель тексто- 
вих документів у семантичному просторі, базис якого утворено частотно-дистрибутив- 
ними характеристиками семантичних та тематичних полів. Експериментальний класи- 
фікаційний аналіз тестової вибірки текстових документів у векторному просторі семантич- 
них та тематичних полів показав високу ефективність використання лексемних полів у 
класифікаційному аналізі. Точність наївного баєсівського класифікатора у просторі те- 
матичних полів для проаналізованої вибірки авторських текстів є вищою у порівнянні із 
такою ж точністю у просторі лексикографічних семантичних полів. Базис лексико- 
графічних семантичних полів є незалежним від вибірки, а базис тематичних полів є 
індивідуальним для кожної текстової вибірки. 
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ВЕЗ5ЗСМЕ 
В.М. Раміузпепко 


Те (зе ої І ехетез Кіеійз їп Дата Міпіпе ої Техі5 Атгау5 

Ті рарег дезсгібез Ше Ппемізйїс сопсеріє ої 5еплапіїс апа Шеплайс Іехісосгаріісаї 
Нед їп (егтя ої Феїг п5е іп Фе аїсогійпт5 ої 'їехі атаує Чака пипіпо. 5еплапіїс Пе/45 аге Ше 5еї 
ої Іехетез уфісі аге ппіїед ппдег 5оте рагадіст. ТРе рагадіст сап Бе, ог ехашріе а гапее ої 
зетапіїс ог ФШпетабіс сопсерія уубісП аге гергезепіва їп Де 5ігасіиге ої Іехете5 Іехісоргаріісаї 
уаше. Оп Ше Ба5і5 ої Ше 5епапіс Пе/д5 сопсеріз уке сгеаїед а 5еї-Шпеогейса! плодеї утрісі 
сотііпе5 бе сопсері5 ої зептапііс апа Феплайс Іехете Беїдз. Г ехісовгарріс 5еплапіїс апа 
Фетаїс Пе/дя пау Бе сопзідегей аз 5иБсіа85е8 ої а шпійутпе сіа85 ої Іехете Пе!дз8. І ехете 
Не/45 аге соп5ідегеад аз а 5еб рагіїйоп ої а Іехете дїспопагу Ба5ей оп Фе едшуаїепсе геїайоп. 
І ехісовтарбіс Неїд8 аге їогтеад оп Ше Базіз ої ехрегі 5еплапіїс сгопріпе ре даїсйопагу Іехете 
зігасїиге. Третабйс Не!дз аге сгеагед йога ре Іехетез Турісаї Їог ШеплайсаПу саїерогі»ей їехі 
доситепіз апа аге деїептіпей пе їо Ше соейїсіепі ої Фептайс ехргеззіуепезя. ТРі5 соейсіепі 
5поуу85 Поуу плапу їйтез Ше Іехете5 ої Фепабіс Пе/д8 аге плоге бгедшепі їп фе (ехіз ої дїуеп 
Фептагїс сакесогу аз соппрагед о Ше їехіз ої ппецо-5гуПпяисаї пог. УУе аїзо 5їидіед а уесіог 
тоде! ої (ехі дФоситепія іп пе зетапіс зрасе, ре Базіє ої м/рісі 15 Гоптлед Бу бедцепсу- 
дізісібибопа! срагастегі5біся ої 5еплапіїс апа петабіс Пе/48. Ехрегітепіа! сіаззійсайоп апаїузія 
ої Ше (езі заптріе ої (ехі доситепія їп Ше уесіог 5расе ої зетапіїс апа Шептайс Пед 5поуей 
рієб еНесйуепе85 їп цз5іпе Іехегле Пешд5 ог сіаззійсайоп апаіузі5. ТРре ргесізіоп ої паїме 
Вауезіап сіаз5ійег іп пе 5расе ої Шеплайс Пе/д5 15 Пієбег Бог апаїугед ашіпогя ехів іп 
сопрагі5оп мулі Фе зате ргесізіоп їп пе 5расе ої Іехісостарбіс 5етапіїс Пе!дз. ТПе Базіз ої 
Іехісортарбіс 5еплапіїс Пе!д58 15 іпдерепдепі ої Фе їехі5 затріе, Ше Базі5 ої Шептайс Пе!дя 15 
зресійс о еасі (ехіз затріє. 
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